| Il capitolo descrive in modo dettagliato l’utilizzo dell'interfaccia del software CONCORD. I paragrafi aiutano l’utente ad utilizzare la schermata principale e le varie funzioni del software. |
Il software viene attivato tramite l’icona del programma presente nella
cartella c:\concord dopo aver effettuato l'installazione (vedi
§ 2.2).
Con l’avvio della procedura, si apre la schermata principale (vedi
fig. 4.1).
Nella schermata principale viene presentato un menubar, in cui compaiono le seguenti voci:
Una delle prime scelte possibili, una volta attivato CONCORD, è il "progetto". Con questa scelta possiamo uscire dal software oppure scegliere tra una nuova elaborazione o una elaborazione precedentemente effettuata. Per "progetto" in CONCORD si intende il nome della cartella nella quale risiedono tutti i file e dataset generati dalle varie funzioni, e che è anche il nome con il quale viene assegnata la libreria SAS al momento dell'esecuzione.
Figura 4.2 - Il Progetto
Dal menu Progetto con "Nuovo", sempre attivo, si definisce un
nuovo progetto scegliendo una cartella (directory), che può essere
creata utilizzando l'apposito simbolo
dopo aver selezionato il percorso.
Il nome della nuova cartella deve rispettare la sintassi dei nomi di libreria SAS e cioè al massimo otto caratteri di cui il primo alfabetico e senza caratteri speciali (es. redditi, forzelav, ecc.). Scelto il nome del progetto si deve scegliere il tipo di correzione e, a conferma avvenuta, viene assegnato il progetto come libreria al SAS, scritto un record di progetto nel dataset "metadati" nella cartella "c:\concord", e registrati nella cartella di progetto tutti i dataset e i file necessari all'esecuzione dei vari programmi del sistema. Il nome del progetto scelto sarà mostrato nel titolo di tutte le maschere principali.
Con "Apri", attivo solo se precedentemente è stato elaborato un progetto, cioè se esiste almeno una osservazione nel dataset "metadati" nella cartella "c:\concord", si sceglie un progetto tra quelli che vengono mostrati, corrispondente a una cartella (directory). E' possibile rimuovere un progetto, dopo averlo scelto, cliccando sul tasto con il simbolo di cancellazione a fianco del nome del progetto e, dopo conferma, il nome del progetto viene eliminato dal dataset "metadati" e da "history" lasciando inalterato il contenuto della cartella relativa.
Con "Chiudi", attivo quando un progetto è stato scelto,
si chiude il progetto in corso e si aggiorna automaticamente il record
corrispondente nel dataset "metadati".
In una stessa cartella, e quindi nello stesso progetto, possono coesistere
i vari tipi di correzione: probabilistica, deterministica o tramite donatore.
Si può passare da un tipo all'altro di correzione chiudendo e riaprendo il progetto con lo stesso nome e scegliendo il tipo di correzione opportuno.
Dopo avere scelto il progetto è necessario impostare il tipo di correzione che si vuole effettuare sui dati scegliendo uno dei tre approcci possibili:
Figura 4.3 - La scelta del Progetto
4.3. La scelta del tipo di correzione
La definizione, lo sviluppo e la messa a punto di una procedura automatica per il controllo e la correzione dei dati dovrebbero essere finalizzati a far sì che questa
La soluzione ottimale dovrebbe prevedere il trattamento congiunto in un unico passo di entrambe le tipologie di errore. Nella pratica questo non è possibile, non disponendosi ancora di implementazioni degli opportuni algoritmi. In fase di disegno della procedura complessiva occorre quindi:
Tutto ciò implica che la fase di messa a punto delle procedure non è finalizzata solo ad una ottimizzazione della procedura probabilistica ideata nella fase di disegno (verifica della completezza e correttezza del piano di compatibilità), ma anche all'individuazione della componente sistematica degli errori (per lo sviluppo di passi deterministici), ed alla identificazione delle cause di tali errori (per la loro rimozione dal processo produttivo).
Il software CONCORD (CONtrollo e CORrezione dei Dati) permette di applicare
integralmente la metodologia, almeno nel caso di variabili categoriche.
Nel software sono infatti disponibili le funzioni di tre diversi moduli,
sviluppati a suo tempo indipendentemente presso l’ISTAT:
Il passo di definizione prevede:
Le funzioni di GRANADA permettono di definire le regole di tipo SE-ALLORA già introdotte. Tenendo conto che la parte SE di tali regole esprime la stessa condizione di errore definita in un corrispondente edit del passo probabilistico, CONCORD dà la possibilità di importare tutte le regole già definite mediante l'approccio probabilistico , inizializzando in tal modo il modulo deterministico. L’utente non dovrà far altro che scegliere quali regole mantenere, e per queste indicarne la parte ALLORA, che corrisponde alla localizzazione deterministica dell’errore.
A questo punto, applicando le regole così definite, è
possibile bipartire l’insieme iniziale dei dati in due sottoinsiemi, quello
dei dati esatti e quello dei dati contenenti errori.
Le funzioni dell'approccio deterministico consentirebbero anche di
imputare direttamente le variabili giudicate errate, indicando il valore
puntuale da assegnare; da un punto di vista statistico quest’operazione
è però da evitare, o quantomeno da ridurre al minimo, in
quanto può comportare rilevanti distorsioni delle distribuzioni
originali. Sarebbe bene quindi utilizzare questa funzione solo per l'impostazione
di caratteri di controllo nelle variabili giudicate errate, caratteri che
verranno utilizzati dalle funzioni del donatore per riconoscere i valori
da imputare.
Mediante le funzioni di correzione tramite donatore, identiche alle funzioni di RIDA, la correzione si esegue prelevando i nuovi valori da un record corretto simile al record errato (Abbate 1996). La similitudine si calcola utilizzando alcune variabili, dette di "match", scelte sulla base della loro correlazione con la variabile da correggere.
Questo metodo presuppone che le variabili utilizzate per calcolare la
distanza fra record errato e donatore siano corrette. Per la ricerca del
donatore si procede a confrontare il record errato con tutti i record esatti,
scegliendo quello con distanza minima. Le variabili, utilizzate per individuare
la similitudine fra i record, si distinguono in variabili di strato
e
variabili di match. Le variabili di strato si utilizzano
per limitare la ricerca all’interno di sottoinsiemi di record che presentano
uguali valori di tali variabili. Le variabili di match si utilizzano per
calcolare la funzione di distanza mista per tutti i record dello strato.
Il donatore prescelto è quello più vicino al record errato,
cioè quello con distanza minima.